В этом параграфе описываются, пожалуй, главные фичи теории вероятностей: независимые события и условные вероятности. Эти концепции имеют большое прикладное значение, да и с теоретической точки зрения главным образом благодаря им теория вероятностей выделяется в отдельную ветвь математики.
Условная вероятность
Условная вероятность возникает при ответе на вопрос о том, каковы шансы события A при условии,что случилось событие B, и обозначается P(A∣B).
Пример. Согласно исследованиям, в среднем 5% пациентов испытывают приступы кашля в течение дня, однако среди курильщиков доля кашляющих составляет 40%. То есть (безусловная) вероятность P(кашляет)=0.05 при добавлении обусловливания может существенно измениться: P(кашляет∣курит)=0.4.
Упражнение. Известно, что в семье два ребёнка, причём один из них мальчик. Какова вероятность, что другой ребёнок тоже мальчик?
Ответ (не открывайте сразу, попробуйте сначала решить самостоятельно)
Как ни странно, ответ вовсе не 50%. Пол новорождённого ребёнка можно приближённо считать результатом испытания Бернулли с вероятностью успеха 21.
Из четырёх возможных вариантов ММ, МД, ДМ, ДД условию удовлетворяют только первые три, и лишь в одном случае из этих трёх второй ребёнок тоже мальчик. Поэтому правильный ответ — 31.
Добавляя формализма, обозначим
A={хотя бы один ребёнок — мальчик}
B={мальчики оба ребёнка},
и тогда условная вероятность P(B∣A) вычисляется по формуле
P(B∣A)=P(A)P(A∩B)=3/41/4=31.
В общем случае условная вероятность P(B∣A) при P(A)=0 полагается равной
P(B∣A)=P(A)P(A∩B).
В зависимости от соотношения событий A и B условная вероятность P(B∣A) может принимать разные значения, например:
- если A∩B=∅, то событие A исключает реализацию события B, и P(B∣A)=0;
- если A⊂B, то событие A гарантирует осуществление события B, и P(B∣A)=1.
Разумеется, чаще всего события A и B соотносятся между собой более хитрым образом, и значение условной вероятности P(B∣A) находится строго между 0 и 1.
Пусть пространство Ω разбивается на попарно несовместные события B1,B2,…,Bn:
Ω=B1∪…∪Bn,Bi∩Bj=∅ при i=j.
Тогда
A=A∩Ω=(A∩B1)∪…∪(A∩Bn);
отсюда по свойству конечной аддитивности находим, что
P(A)=P(A∩B1)+…+P(A∩Bn).
Переходя к условным вероятностям, получаем формулу полной вероятности:
P(A)=k=1∑nP(A∣Bk)P(Bk).
Пример. Среди населения 33.7% имеют первую группу крови, 37.5% — вторую, 20.9% — третью, 7.9% — четвёртую. При переливании крови надо учитывать группы крови донора и рецепиента:
- реципиенту с четвёртой группой крови можно перелить кровь любой группы;
- реципиентам со второй и третьей группами можно перелить кровь той же группы или первой;
- реципиентам с первой группой крови можно перелить только кровь первой группы.
С какой вероятностью допустимо переливание в случайно взятой паре донор—реципиент?
Решение. Пусть событие A состоит в том, что переливание возможно, а событие Bk — в том, что донор имеет группу k. По формуле полной вероятности
P(A)=P(A∣B1)P(B1)+P(A∣B2)P(B2)+P(A∣B3)P(B3)+P(A∣B4)P(B4).
Вероятности P(Bk) даны в условии, оттуда же находим, что
P(A∣B1)=1,
P(A∣B2)=P(B2)+P(B4),
P(A∣B3)=P(B3)+P(B4),
P(A∣B4)=P(B4).
Подставляя численные значения, получаем
P(A)=0.337+(0.375+0.079)⋅0.375+(0.209+0.079)⋅0.209+0.0792=0.573683.
Упражнение. Решите предыдущий пример, выбирая в качестве разбиения набор событий Ck, каждое из которых заключается в том, что реципиент имеет группу k.
Ответ
По той же формуле полной вероятности получаем, что
P(A)=P(A∣С1)P(С1)+P(A∣С2)P(С2)+P(A∣С3)P(С3)+P(A∣С4)P(С4).
Ясно, что P(Ck)=P(Bk); далее из условия находим, что
P(A∣С1)=P(C1),
P(A∣C2)=P(C1)+P(C2),
P(A∣C3)=P(C1)+P(C3),
P(A∣C4)=1.
Подставляя численные значения, получаем тот же ответ P(A)=0.573683.
Формула полной вероятности легко обобщается на случай счётного числа попарно несовместных событий Bk, а также на случай обусловливания по некоторому событию C, например:
P(A∣C)=n∑P(A∣Bn,C)P(Bn∣C).
Заметим, что вероятность P(A∩B) можно записать двумя способами
P(B∣A)P(A)=P(A∩B)=P(A∣B)P(B).
Оставим P(B∣A) в левой части и получим формулу Байеса.
Формула Байеса. Для любых событий A, B c положительной вероятностью
P(B∣A)=P(A)P(A∣B)P(B).
Для вычисления знаменателя в формуле Байеса часто используется формула полной вероятности.
Упражнение. Среди определенной группы людей вероятность некоторой болезни 0.02. Тест, позволяющий выявить болезнь, несовершенен. На больном он дает позитивный результат в 98 случаях из 100, и, кроме того, он дает позитивный результат в 4 случаях из 100 на здоровом. Найдите вероятность того, что человек, на котором тест дал положительный результат, действительно болен.
Ответ (не открывайте сразу, попробуйте сначала решить самостоятельно)
По формуле Байеса,
P(болен∣+)=P(+)P(+∣болен)P(болен).
По условию, P(+∣болен)=0.98, P(болен)=0.02. Чтобы посчитать вероятность теста быть положительньным, применим формулу полной вероятности:
P(+)=P(+∣болен)P(болен)+P(+∣здоров)P(здоров)=0.98⋅0.02+0.04⋅0.98=0.98⋅0.06.
Тогда по формуле Байеса
P(болен∣+)=0.98⋅0.060.98⋅0.02=31.
Получается, что точность теста очень низка — всего лишь около 1 из 3. Это происходит, потому что больные люди встречаются редко (2 из 100), и эта частота сравнима с долей ошибок I и II рода — 0.02 и 0.04.
Для непрерывного случая тоже есть своя формула полной вероятности, см. раздел про условную вероятность.
Независимые события
События A и B называются независимыми, если
P(A∣B)=P(A), то есть информация о реализации события B никак не влияет на вероятность события A.
По определению условной вероятности независимость событий A и B эквивалентна тому, что
P(A∩B)=P(A)P(B).
Последнее равенство годится для определения независмости событий A и B даже в том случае, если P(A)=0 или P(B)=0.
Пример. В полной колоде карт находится 52 карты: 4 масти от двойки до туза. Вероятность вытащить туза равна P(Ace)=524=131, карту пиковой масти — P(♠)=5213=41. Эти события независимы, поскольку в пересечении этих событий лежит ровно одна карта — туз пик, вероятность появления которого равна 521=131⋅41=P(Ace)P(♠).
Пусть теперь вытаскивается сразу две карты. Зависимы ли события «вытащены две карты пиковой масти» и «вытащены туз и король»? Посчитаем:
P(♠♠)=(252)(213)=52⋅5113⋅12=171,
P(AK)=(252)16=52⋅5132=6638.
Вероятность вытащить туза и короля пик равна (252)1=13261≈0.00075, что отличается от P(♠♠)P(AK)=112718≈0.00071. Таким образом, эти события зависимы.
События A1,…,An попарно независимы, если P(Ai∩Aj)=P(Ai)P(Aj) при i=j. Эти же события независимы в совокупности, если
P(Ai1∩…∩Aim)=k=1∏mP(Aik)
для любого набора индексов 1⩽i1<…<im⩽n.
Упражнение. Приведите пример попарно независимых событий A1, A2, A3, не являющихся независимыми в совокупности.
Ответ (не открывайте сразу, попробуйте сначала решить самостоятельно)
Раскрасим тетраэдр в три цвета следующим образом: одна грань красная (R), вторая — зелёная (G), третья — синяя (B), а четвёртая содержит все три цвета. События R, G, B состоят в том, что при случайном броске на нижней грани тетраэдра есть соответствующий цвет.
Тогда
P(R)=P(G)=P(B)=21,
P(R∩G)=P(R∩B)=P(G∩B)=41,
что влечёт попарную независимость событий R, G, B. Однако P(R∩G∩B)=41, что не равно P(R)P(G)P(B)=81, поэтому эти события не являются независимыми совокупности.
Определение независимости случайных величин из предыдущего параграфа полностью согласуется с только что введённым определением независимых событий. Например, для случая дискретных случайных величин ξ и η обозначим
Ai=P(ξ=xi),Bj=P(η=yj);
тогда P(ξ=xi,η=yj)=P(Ai∩Bj), и поэтому независимость случайных величин ξ и η эквивалентна независимости событий Ai и Bj для всевозможных значений i и j.
Замечание о статистической независимости
Математический термин «независимость» подразумевает статистическую (или стохастическую) независимость, которая может не вполне совпадать по смыслу с интуитивным значением этого термина. Например, если вы два раза подкидываете симметричную монетку, то статистически результат первого броска никак не влияет на результат второго броска. Но так ли это с философской точки зрения? Вот представим две ситуации:
-
вы бросили монетку, быстро подняли с пола, и снова бросили;
-
монетка при первом броске укатилась далеко под диван, и вы полчаса ворочали мебель, прежде чем произвести второе испытание.
Весьма вероятно, что столь досадное происшествие после первого броска могло существенно повлиять на ваше физическое и моральное состояние. И уж точно второй бросок в ситуациях (1) и (2) вы бы совершили совершенно по-разному, что вполне могло отразиться на его результате.
Однако в математике подобным метафизическим измышлениям нет места. С абстрактным понятием независимости гораздо проще работать, поскольку оно игнорирует замысловатые причинно-следственные связи и прочие несущественные детали. В модели независимых испытаний Бернулли каждое следующее испытание статистически никак не зависит от предыдущих. Что бы с вами не происходило, шансы во втором броске — 50 на 50, именно об этом говорит нам независимость испытаний Бернулли с вероятностью успеха 21, не больше и не меньше.
Условная независимость
Бывает так, что зависимые события A и B становятся независимыми при выполнении некоторого третьего события C. Более формально, события A и B условно независимы по отношению к событию C, если P(C)>0 и
P(A∣B,C)=P(A∣C).
Поскольку
P(A∣B,C)=P(B∩C)P(A∩B∩C),P(A∣C)=P(C)P(A∩C),
то условная независимость событий A и B эквивалетна равенству
P(C)P(A∩B∩C)=P(C)P(A∩C)⋅P(C)P(B∩C),
а это, в свою очередь, означает, что
P(A∩B∣C)=P(A∣C)P(B∣C).
Таким образом, вероятность произведения условно независимых событий равна произведению условных вероятностей. Эта формула полностью аналогична формуле P(A∩B)=P(A)P(B) для (безусловно) независимых событий.
Пример (цепь Маркова). Последовательность событий S0,S1,S2,…,St,… называется марковской цепью, если выполняется марковское свойство
P(St+1∣St,St−1,…,S0)=P(St+1∣St),t∈N∪{0}.
В марковском свойстве заложен следующий смысл: в каждый момент времени t «будущее» St+1 зависит только от «настоящего» St, но не зависит от «прошлого»
Pt=St−1∩…∩S0.
Итак, цепь Маркова характеризуется равенством P(St+1∣Pt,St)=P(St+1∣St), которое означает, что события St+1 и Pt условно независимы по отношению к событию St.
Условные распределения
Пусть ξ и η — дискретные случайные величины и P(η=y)>0. По аналогии с условными вероятностями условное распределение случайной величины ξ при условии, что значение случайной величины η равно y, определяется по формуле
P(ξ=xi∣η=y)=P(η=y)P(ξ=xi,η=y).
Это действительно распределение вероятностей, поскольку P(ξ=xi∣η=y)⩾0 и
i∑P(ξ=xi∣η=y)=P(η=y)1i∑P(ξ=xi,η=y)=1.
В непрерывном случае условное распределение задаётся условной плотностью
pξ∣η(x∣y)=pη(y)p(x,y),
где p(x,y) — совместная плотность случайных величин ξ и η. И снова проведением маргинализации по x убеждаемся в том, что с нормировкой всё в порядке:
−∞∫+∞pξ∣η(x∣y)dx=pη(y)1−∞∫+∞p(x,y)dx=pη(y)pη(y)=1.
Поскольку −∞∫+∞p(x,y)dy=pξ(x), из формулы условной плотности получаем непрерывный аналог формулы полной вероятности:
pξ(x)=R∫pξ∣η(x∣y)pη(y)dy.
Пример. Выберем случайное число x∈[21,1], а затем — случайное число y∈[0,x]. Как распределена случайная величина y?
Переформулируем задачу: известно, что ξ∼U[21,1] и η∣ξ∼U[0,x]. Требуется найти плотность случайной величины η. Имеем
pξ(x)=2I[21,1](x),pη∣ξ(y∣x)=x1I[0,x](y).
Применяя формулу полной вероятности, находим
pη(y)=1/2∫1x2I[y⩽x]dx={2ln2,−2lny,0⩽y<21,21⩽y⩽1.
Упражнение. Пусть случайные величины ξk∼Exp(λk), k=1,…,n, независимы в совокупности. Чему равна вероятность P(ξk=min{ξ1,…,ξn})?
Ответ (не открывайте сразу, попробуйте сначала решить самостоятельно)
Обозначим η=1⩽k⩽nargmin{ξk}. Требуется найти P(η=k). По формуле полной вероятности имеем
P(η=k)=0∫+∞pη∣ξk(η=k∣x)pξk(x)dx.
Далее, pξk(x)=λke−λkx, x⩾0,
pη∣ξk(η=k∣x)=P(ξi>x,i=k)=i=k∏e−λix.
Таким образом,
P(η=k)=0∫+∞λke−λkxi=k∏e−λixdx=λk0∫+∞exp(−i=1∑nλix)dx=λ1+…+λnλk.
Условные распределения случайных векторов определяется аналогично с поправкой на возросшее число аргументов: в этом случае x и y уже не числа, а вектора тех же размерностей, что и сами случайные вектора.
Условные математические ожидания
Условное математическое ожидание E(ξ∣η=y) отвечает на вопрос «чему равно среднее значение случайной величины ξ при условии, что η=y?».
Имея в распоряжении матрицу условного дискретного распределения P(ξ=xi∣η=yj) или условную плотность pξ∣η(x∣y), условное математическое ожидание можно вычислить следующим образом:
- E(ξ∣η)≡E(ξ∣η=y)=i∑xiP(ξ=xi∣η=y) в дискретном случае;
- E(ξ∣η)≡E(ξ∣η=y)=R∫xpξ∣η(x∣y)dx для непрерывных ξ и η.
Важно отметить, что после суммирования или интегрирования по переменной x в формуле условного математического ожидания остаются зависимость от y. Таким образом, в отличие от обычного среднего, которое является просто числом, условное ожидание представляет собой случайную величину ζ=E(ξ∣η=y), поскольку его значение зависит от случайного значения η=y.
Свойства условного математического ожидания
-
E(aξ1+bξ2∣η)=aE(ξ1∣η)+bE(ξ2∣η) (линейность).
-
Если ξ1⩽ξ2, то E(ξ1∣η)⩽E(ξ2∣η) (монотонность).
-
Если случайные величины ξ и η независимы, то E(ξ∣η)=Eξ.
-
E(g(η)ξ∣η)=g(η)E(ξ∣η).
-
E(E(ξ∣η))=Eξ (law of total expectation).
Упражнение. Prove the law of total expectation.
Ответ (не открывайте сразу, попробуйте сначала решить самостоятельно)
Пусть ζ=E(ξ∣η). Начнём с дискретного случая:
Eζ=j∑E(ξ∣η=yj)P(η=yj)=j∑i∑xiP(ξ=xi∣η=yj)P(η=yj)=
=i∑xij∑P(ξ=xi,η=yj)=i∑xiP(ξ=xi)=Eξ.
В непрерывном случае вместо сумм потребуется переставить местами интегралы. Это позволяет сделать теорема Фубини о сведении двойного интеграла к повторному:
Eζ=−∞∫+∞E(ξ∣η=y)pη(y)dy=−∞∫+∞pη(y)dy−∞∫+∞xpξ∣η(x∣y)dx=
=−∞∫+∞xdx−∞∫+∞p(x,y)dy=−∞∫+∞xpξ(x)dx=Eξ.
Условная дисперсия определяется по формуле
V(ξ∣η)=E((ξ−E(ξ∣η))2∣η)=E(ξ2∣η)−(E(ξ∣η))2.
Справедливо равенство Vξ=E(V(ξ∣η))+V(E(ξ∣η)) (law of total variance).
Регрессия
В машинном обучении часто встречается задача регрессии, в которой требуется восстановить зависимость Y=f(X) при наличии выборки
(X1,Y1),…,(Xn,Yn)
из некоторого неизвестного распределения с совместной плотностью p(x,y). Стандартный способ решения задачи регресии — минимизация среднего значения функции потерь L(Y,f(X)):
E[L(Y,f(X))]=R2∬L(y,f(x))p(x,y)dxdy→min.
В качестве функции потерь на одном объекте (x,y) в задаче регрессии обычно выбирают квадратичную функцию: L(y,f(x))=(y−f(x))2. Тогда
E[L(Y,f(X))]=R2∬(y−f(x))2p(x,y)dxdy;
для минимизации этого функционала применим немножко вариационного исчисления и продифференцируем по функции f(x). Получим
2R2∬(f(x)−y)p(x,y)dxdy=0,
откуда
f(x)=p(x)1−∞∫+∞yp(x,y)dy=−∞∫+∞ypY∣X(y∣x)dy=E(Y∣X=x).
Полученное условное математическое ожидание, называемое функцией регрессии, показывает, чему в среднем равно значение зависимой переменной Y при условии, что X=x.